1,407 lecturas

Principales aplicaciones y oportunidades de visión artificial

por Sasha Andrieiev17m2022/08/19

Demasiado Largo; Para Leer

La IA es cuando las máquinas y los sistemas informáticos simulan procesos de inteligencia humana. Al menos el 90 % de los gigantes tecnológicos invierten en IA y la mitad de las empresas entrevistadas la utilizan. La visión artificial ya se ha integrado en el tráfico rodado, los pagos bancarios y las redes sociales. La idea de la visión artificial se aplicó por primera vez a textos impresos de cualquier fuente (reconocimiento óptico de caracteres) o incluso a textos escritos a mano. Después de este gran avance, se está haciendo mucho en los negocios, el entretenimiento, el transporte, la atención médica y la vida cotidiana. Es hora de aprender cómo funciona la visión de IA y decidir si confiar en ella.

Companies Mentioned

featured image - Principales aplicaciones y oportunidades de visión artificial

La inteligencia artificial (IA) es un término que debe haber escuchado, incluso si pertenece al mundo de TI. La IA es cuando las máquinas y los sistemas informáticos simulan procesos de inteligencia humana. En este momento, la IA se está apoderando literalmente del mundo: al menos el 90 % de los gigantes tecnológicos invierten en ella. Según la Encuesta ejecutiva de liderazgo de datos e IA , la cantidad de empresas amigables con la IA que participan en la encuesta se ha duplicado en un año. Otra encuesta afirma que la mitad de las empresas entrevistadas utilizan IA.

Algunas aplicaciones más específicas de la IA incluyen sistemas expertos, procesamiento de lenguaje natural, reconocimiento de voz y visión artificial (computadora). El último tipo de IA, la visión artificial, ya se ha integrado en el tráfico rodado, los pagos bancarios y las redes sociales. Durante las últimas décadas, la visión de la IA ha aprendido a resolver muchas tareas con una precisión que alcanza la humana.

“Como muchos otros han notado y señalado, la neocorteza también tiene una arquitectura muy uniforme en todas sus modalidades de entrada. Quizás la naturaleza se ha topado con una poderosa arquitectura muy similar y la ha replicado de manera similar, variando solo algunos de los detalles. Esta consolidación en la arquitectura, a su vez, se centrará y concentrará el software, el hardware y la infraestructura, lo que acelerará aún más el progreso en la IA. […] De todos modos, tiempos emocionantes”. – Andrej Karpathy, buscado por Elon Musk para desarrollar la visión artificial de Tesla, tuiteó sobre la visión de la IA.

Muchas empresas han comenzado a utilizar la visión artificial en tareas de inteligencia artificial. Karpathy está trabajando en autos impulsados por IA. La NASA usa la visión de IA para rastrear a los astronautas y la policía la usa para rastrear a los delincuentes. La visión de IA se ha convertido en una parte sólida de nuestra rutina diaria. ¿Te das cuenta de dónde funciona la visión artificial para ti todos los días? Apostamos a que lo usas a diario. Al menos, lo hace si es cliente de Amazon, Apple o Google.

Teniendo en cuenta que la visión artificial ya se ha convertido en parte de nuestras vidas, es hora de aprender cómo funciona la visión artificial y decidir si confiar en ella. Hace cinco años, pensábamos en la IA como un "niño". ¿Ha crecido lo suficiente como para confiar en él? Le recomendamos que decida por su cuenta después de averiguar:

Qué inspiró a las personas a desarrollar una visión de IA
Si la visión de la IA tiene similitudes con la humana
Cómo funciona la visión de IA
Donde nos encontramos con la visión de la IA
Lo que la visión artificial no es capaz de

La idea de la visión artificial

Una vez, la gente decidió enseñar a las computadoras a actuar como un cerebro. La idea perteneció principalmente al psicólogo Frank Rosenblatt . Muchos lo llaman el padre de la IA. A fines de la década de 1950, Rosenblatt hizo que una computadora simulara una red neuronal con la ayuda de la biología y las matemáticas. Para aprender algo, las neuronas del cerebro humano construyen conexiones. Este principio sentó las bases de la inteligencia artificial.

El cofundador del MIT, Marvel Minsky , dio el siguiente paso. Esperaba que su alumno le enseñara a la computadora a describir todo lo que "veía" durante el verano. Vale decir que fue un proyecto de verano y fracasó. Aunque la computadora aún no podía reconocer las imágenes con precisión, reconoció los bordes de los objetos en las imágenes.

La visión de IA se aplicó por primera vez a textos impresos de cualquier fuente (reconocimiento óptico de caracteres) o incluso a textos escritos a mano (reconocimiento inteligente de caracteres). Ya era posible en la década de 1970. Después de este gran avance, se está haciendo mucho en los negocios, el entretenimiento, el transporte, la atención médica y la vida cotidiana.

La década de 1970 fue crucial para la visión por computadora, ya que muchos de sus conceptos básicos tecnológicos aparecieron en esa década. En la década de 1980, las computadoras ya podían realizar tareas complicadas. Gracias a David Marr y otros, la IA pudo ver curvas y bordes y notar patrones visuales similares. Más tarde, la computadora pudo reconocer no solo las líneas, sino también la sombra, el enfoque y la textura. Esto sucedió gracias a la red neuronal convolucional que impulsó el procesamiento de imágenes.

En 2001, la IA ya podía reconocer rostros. Desde el proyecto AlexNet en 2012, la visión de IA ha cometido menos errores y ahora es mucho más precisa. Por supuesto, sigue siendo una tarea difícil para la IA reconocer a un gato en una pose hacia abajo. De todos modos, puede aprender a hacer eso. El equipo deImageNet hizo un gran esfuerzo y atrajo a más de 50 000 personas en todo el mundo para etiquetar imágenes manualmente. Ayudó a AI a aprender algunos patrones y poder continuar estudiando por su cuenta.

¿Es la visión de las computadoras similar a la de los seres vivos?

La idea de CNN (red neuronal convolucional) se basa en el principio de la neurona. CNN consta de capas que reconocen patrones de imagen gradualmente, desde simples a complejos, desde líneas hasta rostros completos. Las capas artificiales son similares a las capas de neuronas en un cerebro. Las neuronas artificiales se denominan perceptrones, y CNN es una red que utiliza estos perceptrones.

Hablando de la visión humana, algunas neuronas se activan cuando se exponen particularmente a las líneas verticales, otras, a las horizontales o diagonales. Eso es lo que Hubel y Wiesel describieron en 1962. Dividir tareas específicas para separar neuronas artificiales es lo que también hace CNN.

Los perceptrones evalúan la información de manera diferente o, hablando matemáticamente, las neuronas artificiales pesan las entradas de manera diferente y deciden cuáles de ellas son importantes. Nuestro cerebro filtra la información de manera similar. No podemos recordar todas las caras que vemos durante el día. Guardamos solo información valiosa. ¿Qué pasa con las capas neuronales?

La corteza cerebral mantiene las neuronas en seis capas horizontales. Estas capas difieren según el tipo de neurona y sus conexiones. Sin embargo, la señalización neuronal en realidad no atraviesa todas las capas de la corteza de manera jerárquica. Las señales no se mueven necesariamente de la primera capa a la última.

La forma en que se transmite la información a través de las neuronas no depende de la topología de las capas. En las capas de CNN, lo hace. CNN usa el principio de las capas neuronales de una manera diferente: la información pasa gradualmente de una capa a otra.

Todo esto provino de la “neurocognición” propuesta por Kunihiko Fukushima en 1980. Introdujo dos tipos básicos de capas CNN: capas convolucionales y capas de reducción de resolución. Estas capas contienen unidades similares a diferentes neuronas, que pueden procesar información visual de diferente complejidad. Fukushima, inspirándose en estas células, propuso un modelo en cascada en el que las neuronas pasan información de forma jerárquica: De capa a capa.

La investigación de la visión humana condujo a la aparición de la visión de inteligencia artificial. Ahora, los sistemas informáticos reconocen mundos complejos incluso en movimiento. Además, aprenden por sí mismos cómo hacerlo de manera más efectiva.

IA y visión artificial: ¿cómo se relacionan?

La visión artificial se hizo posible gracias a varios logros. Las matemáticas, la biología, la programación y la ingeniería a menudo se combinan para desarrollar un producto de IA. La visión por computadora se puede llamar una visión de IA, ya que se basa en tecnologías de IA. Además, la visión artificial se relaciona parcialmente con la visión artificial. Sus tecnologías a menudo se combinan. De todos modos, la visión por computadora es más común para muchas tareas, como monitorear productos en líneas o leer códigos QR. ¿Entonces, cómo funciona?

Píxeles: AI ve colores y líneas

Para ser precisos, la IA reconoce patrones. Procesa millones de imágenes para poder sacar conclusiones sobre ellas. Aquí es donde tiene lugar el aprendizaje profundo, haciendo que un sistema aprenda.

Las imágenes están hechas de píxeles. Los píxeles tienen sus códigos, y cada imagen se almacena como datos que consisten en estos códigos. Todos los colores se basan en los rojos, azules y verdes (como en el modelo RGB, por ejemplo). Significa que cada color en particular tiene tres valores. Mientras nosotros vemos perros, la computadora ve números. Por ejemplo, AI entiende los píxeles naranjas como un conjunto de números (255, 165, 0). Como resultado, las computadoras ven una cuadrícula de dichos números en lugar de la imagen.

Si una computadora maneja una imagen de 1920 x 1080 píxeles, entonces tiene que leer 2 073 600 píxeles. Para reconocer a un perro en esta imagen, la computadora tiene que ver algunos patrones en todos los píxeles de la imagen. Hacemos algo similar: en primer lugar, notamos las características de los objetos que son simples y familiares para nosotros. Es por esto que podemos distinguir a un perro de un automóvil al tener solo sus siluetas.

Las computadoras también intentan distinguir patrones familiares: ver líneas o formas que están asociadas con algo de la base de datos de la computadora. Cuantas más coincidencias contenga la base de datos, más posibilidades tendrá la computadora de clasificar la imagen correctamente.

Tecnología: CNN inspirada en el cerebro

La convolución es una función matemática combinada con los principios de una red neuronal en la red neuronal de convolución. CNN tiene capas como lo hace la corteza. Tiene capas que filtran gradualmente las características de la imagen de simples a difíciles:

Capa de entrada
capa convolucional
Capa de agrupación
Capa densa.

El núcleo de CNN es la capa de convolución. Vuelva a pensar en la imagen como una cuadrícula de números. En esta capa, gracias a la multiplicación de la cuadrícula en la matriz de convolución (CM), una computadora puede extraer características de una imagen. Después de multiplicar CM en cada celda de la cuadrícula, obtenemos una cuadrícula transformada. La computadora entiende sus valores como características como bordes o líneas, y sus patrones pueden ser familiares para la base de datos de IA.

La convolución se ejecuta muchas veces para hacer predicciones sobre los patrones y verificar su precisión. Las redes neuronales continuarán haciendo iteraciones hasta que la precisión sea lo más alta posible. Esto se relaciona con todas las capas.

Si obtenemos 10 matrices de características como salida de la capa de convolución, estas 10 matrices se pasan a la siguiente capa como entrada. La agrupación y las capas densas también funcionan con una imagen para muchas iteraciones. Pero sus funciones son diferentes.

La capa de agrupación reduce las dimensiones de las matrices de características, resumiendo así la información principal. La imagen de entrada puede contener muchas desviaciones de los patrones del objeto simple: sombras, rotaciones o recortes. Complican el reconocimiento del objeto. En una capa de agrupación, las características invariantes que interfieren con el procesamiento de imágenes simplemente se muestrean o reducen.

Finalmente, la capa densa tiene que clasificar una imagen utilizando la salida de las capas anteriores. Tiene que lidiar con todas las características de la imagen extraídas de las capas anteriores y nombrar los objetos de esa imagen. La capa profunda es una capa completamente conectada, llamada así por las neuronas artificiales altamente interconectadas. Otras capas carecen de este poder.

Las capas convolucionales contienen neuronas conectadas solo con el nivel anterior. No es suficiente para la predicción de un objeto. La capa profunda hace frente a esta tarea utilizando muchas neuronas interconectadas al mismo tiempo. Basando su predicción en las características extraídas de las capas anteriores, la capa profunda es donde la visión de la inteligencia artificial alcanza su alta precisión.

A nivel de programación, el procesamiento de imágenes no parece un simple filtrado de imágenes dentro de la jerarquía de capas. En diferentes casos, la IA se ocupa de diferentes cantidades de capas y diferentes iteraciones de procesamiento de imágenes, y lo hace en una cantidad de tiempo diferente.

Teniendo en cuenta que la IA tiene que procesar miles de millones de imágenes para comprender el complejo mundo moderno, imaginamos a personas sentadas e intentando completar su base de datos fingiendo que la IA es su estudiante. Ahora, la IA está tratando de estudiar por su cuenta. AI es un "niño" inteligente que solo necesita material para comenzar.

La IA se enseña a sí misma: aprendizaje profundo

Para poder reconocer objetos en imágenes rápidamente, la IA necesita muchos materiales. Los primeros reconocimientos faciales fueron posibles gracias al procesamiento manual de fotos. Las personas marcaron las características en las fotos de rostros, y la IA solo tuvo que comparar rostros nuevos con su base de datos preparada. AI no funcionó automáticamente y el error fue demasiado grande. Para lograr tareas tan difíciles de visión por computadora, se utiliza el aprendizaje automático.

Ahora, la IA utiliza tecnologías de aprendizaje profundo para aprender por sí misma. La IA en su mayoría no necesita personas después de haber sido alimentada con alguna base de datos. La gente no explica todas las reglas a la IA. Aplican algoritmos de aprendizaje estadístico (regresión logística, árboles de decisión, regresión lineal y máquinas de vectores de soporte) para que la IA comience a recordar nuevos patrones por sí misma. El aprendizaje profundo captura características automáticamente y las personas no tienen que hacerlo manualmente.

Para entrenar, la IA todavía necesita material introducido por personas en las primeras etapas. Para reconocer a un perro, los desarrolladores tienen que mostrar muchos perros a una computadora para prepararlo. Más tarde, la IA seguirá enseñándose a sí misma mientras procesa nuevas imágenes. También significa que la IA no solo buscará las imágenes correspondientes de su base de datos, ahora también sabe cómo clasificar imágenes nuevas si ya se ha cargado o visto algo similar.

Muchos gigantes tecnológicos de IA comparten su trabajo con gigantes de las redes sociales como Meta y Google o lo dejan como código abierto. Permite recopilar grandes datos, compartirlos y brindar a la IA más posibilidades para estudiar.

Gracias a las primeras tecnologías de visión por computadora que trabajaban manualmente con grandes datos, muchas tecnologías modernas de visión por IA realizan tareas específicas. Hoy, la visión de IA está siendo desarrollada por miles de equipos en todo el mundo.

Por ejemplo, el algoritmo YOLO permite la detección y el seguimiento de objetos en tiempo real. Su tarea no es solo detectar un objeto en la toma sino asociar toda la información de las tomas anteriores. El principio You Only Look Once significa que la red neuronal procesa una imagen una sola vez para detectar todos los objetos. Entonces los mira. Es posible gracias a las capas profundas y al aprendizaje profundo.

Ahora, la visión por computadora es casi una tecnología autosuficiente que hace algunas predicciones mejor que las personas. En el estudio financiado por Google, los algoritmos de aprendizaje profundo detectaron células cancerosas en el seno con una precisión superior a la de los radiólogos. Los sistemas de IA muestran una reducción del 5,7 % y 1,2 % (EE. UU. y Reino Unido) en falsos positivos y del 9,4 % y 2,7 % en falsos negativos. Un buen argumento para confiar en la IA, ¿no?

De las tiendas a los tractores: aplicaciones de visión artificial

¿Qué puede decirnos la visión artificial sobre una imagen? Sabemos que puede detectar objetos e incluso rastrearlos en tiempo real. ¿Qué otra cosa? Usando Google Street View, la IA de visión que capturó autos en las carreteras estadounidenses predijo los ingresos e incluso los patrones de votación en las áreas de diferentes ciudades. Por ejemplo, es probable que los ciudadanos voten por los demócratas si hay más sedanes que camionetas en esa ciudad.

Otra cosa que la IA puede hacer por las personas es contar animales en los parques nacionales . El software de IA llamado Wildbook identifica automáticamente las especies por su apariencia. Esta visión de IA puede reconocer patrones de pelaje únicos u otras características como el contorno de las orejas o la aleta caudal. Wildbook tiene una base de datos de 20 especies. Ahora coopera con Microsoft AI for Earth Program para resolver diferentes problemas ambientales. Tratamos con jirafas o jaguares con poca frecuencia, y esas historias no nos llegan al corazón tanto como la IA con la que nos encontramos a diario.

Snapchat y Amazon

¿Sabía que puede concentrarse en cualquier producto con una cámara de Snapchat y AI le mostrará este producto en Amazon? Si visitas una tienda física de Amazon, la visión artificial te observará y les dirá a sus desarrolladores cómo te comportas. La IA puede extraer análisis de todo el proceso de compra: desde recomendar un estacionamiento hasta recopilar datos emocionales y hacer predicciones sobre los productos que son interesantes para un cliente.

Detrás de escena, la IA también ayuda en la etapa de fabricación. Mediante el uso de la visión artificial, las líneas de productos se controlan en busca de productos o embalajes defectuosos. Por cierto, leer códigos de barras es lo que hace el reconocimiento óptico de caracteres (OCR), un tipo de visión artificial, cuando compras algo.

Es probable que una gran parte del comercio minorista implemente la visión de IA pronto. Diferentes equipos ya están trabajando en nuevas tecnologías para detectar y rastrear los productos para que estas tecnologías sean más baratas. Así, más tiendas podrán solicitarlos.

Amazon delegó tanto trabajo a la IA que la empresa estableció AWS Panorama , un proyecto separado que vende servicios de visión por computadora para diferentes empresas. Por ejemplo, ayudaron a un aeropuerto a hacer frente a las colas . AWS también ayuda a una empresa de exploración de gas a monitorear el distanciamiento social de los trabajadores y detectar fugas de petróleo . ¿Tocas la guitarra Fender? AWS sabe cuánto tiempo se dedicó a la producción de una guitarra. Ayuda a Fender a controlar cuánto tiempo lleva producir una guitarra y qué puntos de fabricación se pueden optimizar.

Hay muchos más ejemplos solo de la visión de IA de Amazon. Ahora, imagine cuántas tareas se resuelven con la visión de IA todos los días si se tiene en cuenta que todos los gigantes tecnológicos trabajan con IA.

tractores John Deere

Las cosechadoras John Deere han estado cuidando los campos durante casi 200 años. La empresa está implementando gradualmente tecnologías de inteligencia artificial con la velocidad de un gigante tecnológico. En 2020, los desarrolladores de John Deere lanzaron un concepto de tractor semiautónomo, que podía encontrar rutas óptimas entre cultivos, analizar la calidad de la cosecha, rociar herbicidas con precisión y eliminar las malas hierbas por sí solo. Todas estas características se hicieron con visión artificial.

Para analizar cultivos y fumigar herbicidas, no necesariamente necesitamos un tractor. Los drones también pueden hacer eso. El uso de drones nos anticipa a la Agricultura de Precisión y soluciona el problema de las pérdidas de alimentos. Casi el 15 % de los alimentos se pierde anualmente durante la cosecha y los drones pueden disminuir este número.

La visión artificial puede ayudar a la humanidad a hacer frente al hambre. En agricultura, vision AI ofrece soluciones sobre cómo minimizar las pérdidas de cosecha. Por lo tanto, una población prevista de 10 mil millones puede enfrentar menos riesgos de suministro. Además, necesitaremos menos herbicidas si la IA esteriliza con más precisión que las personas. Puede resolver el problema ecológico con herbicidas adicionales.

Reconocimiento facial de Apple

Esto es lo que usamos no a diario sino cada hora. A partir de iOS 10, FaceID desbloquea los nuevos modelos de iPhone en función de los algoritmos de detección de rostros. Las cámaras del iPhone rastrean un rostro en tiempo real y permiten la autorización si el rostro pertenece al propietario del teléfono. En iOS, el reconocimiento facial no solo se usa para desbloquear la pantalla, sino también para reconocer a las personas en las fotos. En este caso, las fotos se envían a un servidor en la nube para detectar rostros con la tecnología de aprendizaje profundo.

Esto es lo que hizo Facebook también. Hasta 2021. Facebook cerró el reconocimiento facial debido a la débil regulación legal y preocupaciones sociales. Esta opción no estaba limitada solo por el reconocimiento facial: un sistema automático de texto alternativo también generaba descripciones de imágenes para personas ciegas. Este sistema utilizó el reconocimiento facial para saber si una persona o amigos estaban en la imagen. La gente sigue discutiendo este tema porque es donde la IA beneficia a la sociedad. ¿Qué pasa con la diversión?

¿Intentaste intercambiar tu cara con la cara de tu amigo en alguna aplicación? ¿O ya has visto cómo te verías en tu vejez? Entonces has probado la manipulación facial realista. Esta tecnología de visión de IA se utiliza no solo para divertir a los usuarios, sino también para hacer deepfakes . Aquí es donde la visión por computadora se vuelve peligrosa, ya que las falsificaciones profundas pueden usarse para manipular a la sociedad.

Ya se ha hecho con los rusos viendo el video profundamente falso del presidente ucraniano donde dice que no hizo frente a la guerra y que estaba listo para entregar Ucrania, lo cual era una mentira.

¿Qué cosas realmente buenas ha hecho ya el reconocimiento facial? Además de los delincuentes detectados en cámaras públicas, Vision AI puede encontrar niños desaparecidos. La policía de Nueva Delhi rastreó a casi 3.000 de los 45.000 niños desaparecidos en solo cuatro días gracias al reconocimiento facial aplicado a una base de datos TrackChild . Un ejemplo más de cómo la visión artificial beneficia a nuestra sociedad.

Hoy en día, hay demasiado trabajo para la visión artificial. Los ejemplos de IA pueden formar una lista de cientos de puntos. Algunos más son:

Retransmisiones deportivas : bola de seguimiento, disco; predecir el rendimiento de los jugadores.
Asistencia sanitaria : detección de tumores, seguimiento remoto de un paciente, imágenes médicas.
Coches autónomos : Tesla y Waymo de Google no son los únicos. Ya hay muchos otros autos semiautónomos en las carreteras.
Traducir : abra su aplicación Google Translate e intente utilizar la traducción visual en tiempo real.
Archivos de fotos : New York Times coopera con Google y utiliza su tecnología Vision API para digitalizar millones de fotos de archivos.
Agricultura y vida silvestre : detección y seguimiento de animales en parques nacionales o granjas; detección de síntomas de infección .

Hablando de atención médica, CNN y el aprendizaje profundo ayudan a los médicos a detectar Covid. Usando imágenes de rayos X de tórax, la aplicación del equipo de Covid-Net , DarwinAI, predice la enfermedad con más del 92% de precisión. Debido a su base de datos de código abierto, el software tiene muchos materiales para aprender.

No está mal para un "adolescente" que ayuda a la humanidad a resolver problemas en el comercio minorista, la agricultura, las redes sociales y la atención médica. Puede ser que la IA haya alcanzado las posibilidades de la inteligencia de un adulto. La visión de la IA entró literalmente en todas las esferas de la vida. Sin embargo, hay algo que la IA es "demasiado joven" o no está lista para afrontar.

Lo que la visión artificial no es capaz de hacer

La principal limitación no es que la IA no sepa algo: es un buen "estudiante" de aprendizaje profundo. El problema es que el hardware a menudo limita el potencial de visión de la IA.

El aprendizaje automático exige procesadores de alta eficiencia: la CPU y la GPU deben generar imágenes o videos de alta calidad. Las capacidades de la CPU a menudo no son suficientes para tareas computacionalmente intensivas, mientras que la GPU ayuda a acelerar el cómputo de la visión de la IA . Por lo tanto, la GPU libera la CPU para otras tareas además de la visión por computadora.

Además de computadoras eficientes, la visión por computadora necesita dispositivos de última generación. Se conectan a cámaras para recopilar datos en tiempo real, lo que ahorra tiempo para procesar datos en las nubes. Los dispositivos perimetrales procesan datos localmente y, como resultado, los datos en tiempo real no tienen problemas de latencia. Al procesar datos localmente, las empresas pueden ahorrar dinero al realizar el procesamiento de datos localmente.

Obtener un dispositivo de borde no es un problema, pero se agrega a la "canasta de consumo" para la visión por computadora y el precio aumenta. Es difícil estimar cuánto costaría una computadora perfecta para la visión de IA. El cielo es el límite. En una computadora portátil común, solo se pueden ejecutar tareas simples de visión de IA.

Los investigadores del laboratorio AI12 calcularon cuánto costaría si las complejas tareas de aprendizaje profundo de NoisyStudent de Google se ejecutaran en una nube como AWS de Amazon, por ejemplo. Considerando que NoisyStudent trabaja en CNN e incluye 480 millones de parámetros, el precio alcanzaría los $10K – $200K (solo para 340 millones de parámetros).

Si combina IA de máquina y computadora, debe haber una cámara con alta resolución. Si el objetivo es rastrear un objeto, entonces una máquina necesita una cámara capaz de grabar flujos de alta definición. Agregue esto al precio también.

Además del hardware, otra limitación es la falta de datos de alta calidad. Para enseñar a la IA a reconocer objetos, debe entrenarse con datos etiquetados con imágenes de alta resolución. Al lidiar con un montón de rayos X de baja calidad, es difícil para la visión de la IA predecir enfermedades. Además, a menudo no hay suficientes datos. Covid-Net tuvo éxito debido al constante llenado con nuevos escaneos durante la pandemia. Otros proyectos pueden fallar debido a problemas de privacidad que limitan la acumulación de datos.

Aquí, la visión de la IA se ocupa de otro problema: la ética y la regulación legal. Varios estados de EE. UU. ya han prohibido los sistemas de reconocimiento facial en las cámaras corporales de la policía. Teniendo en cuenta que la IA puede encontrar a un criminal o a un niño desaparecido, parece ser un problema de una regulación legal débil que aún no está clara.

Los sesgos raciales y de género también llegaron a la visión de la IA . En la mayoría de los casos, la IA se entrena en un conjunto de datos que contiene pocas imágenes de mujeres y personas con piel más oscura. El problema es que, de hecho, conduce a una identificación inexacta; no es solo una cuestión ética.

En su camino, la visión de la IA enfrentará muchos problemas morales y será desafiada por la confianza de la sociedad. La ética, el hardware y los datos de mala calidad desafían a la IA. Sin embargo, el problema principal es que la IA todavía necesita un ser humano. Todavía necesita datos etiquetados manualmente.

Sin embargo, es cuestión de tiempo antes de que la IA resuelva los problemas de manera más autónoma. La visión artificial ya no es un "niño" tecnológico. Parece un adulto y ya podemos estar orgullosos de él. Este es el momento de recordar sus principales logros.

Para concluir: la visión artificial que merecemos

Los principales y más importantes puntos a tener en cuenta al hablar de la visión artificial son los siguientes:

Los principios de las redes neuronales humanas inspiraron a los científicos a desarrollar tecnologías de visión artificial que son similares a la arquitectura de capas neuronales.
En la década de 1980, la visión por computadora comenzó a resolver tareas complejas para detectar y rastrear objetos en imágenes.
La CNN, basada en los principios de los seres vivos, y el aprendizaje profundo son las principales tecnologías modernas de visión artificial.
Hoy en día, la visión por computadora se usa en atención médica, venta minorista, tráfico, deportes, agricultura, ciencias sociales y teléfonos inteligentes. Hay muchas otras esferas atractivas donde la IA se aplicará en unos años.
Debemos estar de acuerdo en que la visión por computadora incluye aplicaciones no éticas y riesgosas como cualquier otra tecnología digital. La visión de IA ha simplificado la vida humana no solo en el trabajo sino también en la rutina diaria.
Para hablar sobre la visión artificial como un profesional, lea esto o mire esto .

Ya sea confiar en la IA o confiarle su vida (mientras conduce un automóvil autónomo, por ejemplo) es su elección personal. Sin embargo, lo que debes aceptar, sin importar lo que pienses sobre todas las cosas de alta tecnología, es que la IA ya te ha estado observando desde que abriste tu navegador o desbloqueaste tu teléfono. Además, sigue rodeándote en cada paso de tu rutina diaria. Por lo tanto, lo mejor que puede hacer es estar al tanto y conocer cómo se está desarrollando la visión por computadora y de qué manera puede aprovecharla a nivel personal o comercial.

Publicado originalmente aquí .